[2024年3月6日号]個人的に気になったModern Data Stack情報まとめ

Modern Data Stack情報まとめモダンデータスタック(MDS)

さがら

2024.03.06

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

さがらです。

Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。

そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。

※注意事項：記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。

Modern Data Stack全般

「Data Engineering Study #23 Data orchestration 特集」が開催

2024年3月5日に、「Data Engineering Study #23 Data orchestration 特集」が開催されました。

各登壇者の資料はこちらになります。

弊社でもレポート記事を書いておりますので、併せてご覧ください。

What's "Modern" in the Modern Data Stack

「What's "Modern" in the Modern Data Stack」というタイトルで、Modern Data Stackの現状と課題、その対策としてのPlatform Engineeringの重要性について述べた記事が出ていました。

最近、本当にPlatform Engineeringへの言及が増えていますね！

How to Measure the Value of a Data Catalog

Secoda社のブログにおいて、「How to Measure the Value of a Data Catalog」というタイトルでデータカタログの価値をどのように計測するかをまとめた記事が出ていました。

この記事では、以下の6つをデータカタログの価値を計測するためのKPIの一例としてまとめています。

User adoption of a data discovery platform
Cost savings attributed to the project
Improvements in operational efficiency
Speed to onboarding and efficiency of new hires
Improved “Data Trust” score
Measuring compliance adherence

Data Extract/Load

Airbyte

PyAirbyteなどの新機能を発表

Airbyteが2024年冬にリリースした機能をまとめた記事が出ていました。

特に注目すべきは、PythonのライブラリとしてインストールしてAirbyteのデータロード機能を使用できるPyAirbyteだと思います。

Data Warehouse/Data Lakehouse

Snowflake

Snowflake Cortex LLM Functionsが一部リージョンでパブリックプレビュー

日本時間2024年3月5日の夜に、Mistral AI・LLaMA 2・Gemmaを用いたLLMが関数一つで簡単に使用可能となるSnowflake Cortex LLM Functionsが一部リージョンでパブリックプレビューとなりました！

とても熱い機能なので、早速私も試してブログにしてみました。各関数を一通り簡単に試しています。

また、COPLETE関数を用いたサンプルについては下記のMediumの記事も参考になると思います。こちらの記事では、リード獲得フォーム経由で来たスパムデータを排除する指示をCOMPLETE関数で行い、従来の正規表現ベースのフィルタリングでは検知できていなかったスパムを検知できるようになったと述べられています。

Universal Searchがパブリックプレビュー

Snowflakeでアカウント内オブジェクト・マーケットプレイス・公式ドキュメント・ナレッジベースに対する検索を一度に行える「Universal Search」がパブリックプレビューとなりました。

私が以下のブログで検証した範囲では「Markeplaceでの説明文やData Dictionary」「テーブルに対するコメント」「タグのVALUE」で日本語を用いていれば、検索時にヒットさせることができました。こちらのブログでは実際のスクリーンショットもありますので、ぜひ併せてご覧ください。

ASOF JOINがパブリックプレビュー

Snowflakeで、2つのテーブル間で時系列を持つカラム同士を比較し、最も値が近いものを結合できる「ASOF JOIN」がパブリックプレビューとなりました。

どのような場面でASOF JOINが使えるのかについては、下記の記事がとてもよくまとまっておりますので、こちらも併せてご覧ください。

Snowpark Model Registryを用いたMLOpsパイプラインのサンプル

Mediumにて「Getting Started with Snowpark Model Registry」という記事が出ていました。

この記事では、先日パブリックプレビューとなったSnowpark Model Registryとタスクを用いて、MLOpsのパイプラインをどのように構築できるか、実際のコードと併せてまとめられています。

Snowflakeで最後のカラムの末尾にカンマがあってもエラーが起きないようになりました

@s11y_rsさんの投稿で私も知ったのですが、Snowflakeで最後のカラムの末尾にカンマがあってもエラーが起きないようになりました。

BigQueryは前からこの仕様だったのでSnowflakeも対応しないかな～と思っていたのですが、これは嬉しいアップデートです！

Snowflakeのクエリでfromの前の最後のカラムのあとにカンマをつけたままでもシンタックスエラーにならないようになっている
クエリ書き直したりしてると、最後のカラムにカンマつけたままで実行してエラーになるという地味なストレスがなくなった
ここ2年ほどのリリースで一番うれしいかも…

— しのき (@s11y_rs) March 5, 2024

うおー動いた。Snowflakeにラストカラムのケツカンマ許容が来た！ https://t.co/YZX4gxlUNQ pic.twitter.com/uzghf6n4ed

— たくまん (@takumanken) March 5, 2024

Databricks

serverless SQL warehousesが東京リージョン(ap-northeast-1)で使えるように

2024年2月29日のリリースで、東京リージョン(ap-northeast-1)でserverless SQL warehousesが使えるようになりました。

serverless SQL warehousesについては下記の公式ドキュメントも併せてご覧ください。

Data Transform

dbt

dbt-core 1.8.0のBeta版がリリース

dbt-coreのver1.8.0のBeta版がリリースされました。

最も大きいのは、Unit testsがdbt-coreだけで出来るようになることだと思います。

下記のドキュメントもver1.8.0についての言及が追記されていました。Unit tests機能の追加に伴い、yamlでのテストの書き方がtestsからdata_testsに変更となる点には注意したほうが良さそうです。

Semantic Layer

Cube

Power BIを含む各種Microsoft製品にCubeが対応

Semantic Layerの製品であるCubeが、Power BIを含む各種Microsoft製品に対応したと発表しました。

Power BI以外にも、Microsoft FabricのデータソースとしてCubeを指定、Microsoft Entra ID(以前のAzure Active Directory)のサポート、VNet Peeringや Azure PrivateLinkのサポート、ということも発表されています。

Business Intelligence

Tableau

Tableau Pulseを含むTableau 2024.1がリリースされました

Tableau 2024.1がリリースされました！

この2024.1の目玉機能でもあるTableau Pulseですが、これは今までのTableauとは異なりシンプルなUIでMetricsを事前に定義し、定期的にMetricsを観測して分析することが出来る機能です。

実際に私も試してみたので、ぜひ下記のブログをご覧ください。

Steep

Pivot tablesの可視化を新しくサポート

Steepの新機能として、Pivot tablesの可視化を新しくサポートするようになりました。

下図のように、ヒートマップとしても使えるようなビジュアルとなっています！

Data Catalog

Select Star

手動でカラムレベルリネージの依存関係を定義できる機能を発表

Select Starが新機能として、Select StarのAPIを介すことで手動でカラムレベルリネージの依存関係を定義できる機能を発表しました。

運用面を考えると難しい機能かもしれませんが、他のデータカタログにはない機能だと思うので本記事で紹介させていただきました。

Data Activation (Reverse ETL)

Hightouch

Match Booster Anonymous機能を発表

Hightouchが新機能として、「Match Booster Anonymous」機能を発表しました。

私も以下の記事を読んだだけですが、「1stパーティデータの匿名識別子（IPアドレスなど）を用いて、Hightouch社が提携しているID providerから調達したプロファイルと紐づけ、Cookieがなくてもターゲティングが出来る機能」のようです。

私が以前Hightouch社の方に確認した際は「日本ではMatch Boosterは機能しない」と伺っていたので本機能も日本では対応しないと思っているのですが、IPアドレスで紐づけを行うというのが面白いと感じました。本記事ではIPアドレスを用いることで世帯全員を対象にターゲティング出来るとも述べられています。

Data Quality・Data Observability

Monte Carlo

Iceberg・DeltaのテーブルフォーマットとDynamic Tables・Delta Live Tablesをサポート

Monte Carloが新しく、Iceberg・Deltaのテーブルフォーマットと、SnowflakeのDynamic Tables、DatabricksのDelta Live Tablesをサポートすることを発表しました。

Monte CarloはSnowflakeとDatabricksどちらに寄ることもなく、どちらも一緒にサポートしていく姿勢がすごいなと感じたので、本記事に載せてみました。

Great Expectations

Great Expectations Cloudがパブリックプレビュー

Great Expectationsのクラウド版であるGreat Expectations Cloudがパブリックプレビューとなりました。

下記の記事では料金体系の概要や、Cloud版のためデータの扱いがどうなっているか、などを知ることができます。